Wprowadzenie¶
Analiza warunków życia w różnych regionach jest kluczowa dla zrozumienia różnic społeczno-ekonomicznych oraz planowania polityki rozwoju regionalnego. W niniejszym badaniu skoncentrowano się na powiatach południowo-wschodniej Polski, obejmujących województwa małopolskie, podkarpackie i świętokrzyskie, wykorzystując metody porządkowania liniowego oraz analizę skupień do oceny i klasyfikacji warunków życia mieszkańców tych obszarów.
W badaniu wykorzystano dane pochodzące z Banku Danych Lokalnych Głównego Urzędu Statystycznego (GUS), obejmujące rok 2023. Dobór zmiennych opisujących warunki życia (m.in. z zakresu rynku pracy, edukacji, demografii, zdrowia, infrastruktury, a także środowiska) został przeprowadzony na podstawie opracowania dotyczącego analizy tego regionu w roku 2019. W celu zapewnienia porównywalności wyników starano się możliwie wiernie odwzorować zestaw wskaźników użyty w tamtym badaniu. W tabeli przedstawiono wykorzystane zmienne.
| Zmienna | Jednostka | Charakter | |
|---|---|---|---|
| $X_1$ | Stopa bezrobocia rejestrowanego | % | destymulanta |
| $X_2$ | Nowo zarejestrowane podmioty gospodarki narodowej w rejestrze REGON na 10 000 osób | szt. | stymulanta |
| $X_3$ | Udział bezrobotnych pozostających bez pracy dłużej niż rok wśród wszystkich zarejestrowanych bezrobotnych | % | destymulanta |
| $X_4$ | Przeciętne miesięczne wynagrodzenie brutto | zł | stymulanta |
| $X_5$ | Saldo migracji ogółem na 1000 mieszkańców | osoby | stymulanta |
| $X_6$ | Współczynnik obciążenia demograficznego osobami starszymi | % | destymulanta |
| $X_7$ | Ludność korzystająca z sieci kanalizacyjnej | % | stymulanta |
| $X_8$ | Powierzchnia użytkowa mieszkania na osobę | m2 | stymulanta |
| $X_9$ | Liczba osób na aptekę ogólnodostępną | osoby | destymulanta |
| $X_{10}$ | Lekarze pracujący ogółem na 10 000 mieszkańców | osoby | stymulanta |
| $X_{11}$ | Przestępstwa stwierdzone na 1000 mieszkańców | szt. | destymulanta |
| $X_{12}$ | Liczba samochodów osobowych w przeliczeniu na 1000 mieszkańców powiatu | szt. | stymulanta |
| $X_{13}$ | Długość dróg gminnych i powiatowych o twardej nawierzchni na 100km2 powierzchni powiatu | km | stymulanta |
| $X_{14}$ | Liczba wypadków drogowych w przeliczeniu na 100 000 mieszkańców powiatu |
szt. | destymulanta |
| $X_{15}$ | Zanieczyszczenia gazowe w przeliczeniu na 1 km2 powiatu | t | destymulanta |
| $X_{16}$ | Parki, zieleńce i tereny zielone | % | stymulanta |
| $X_{17}$ | Obszary prawnie chronione | % | stymulanta |
| $X_{18}$ | Współczynnik skolaryzacji brutto | % | stymulanta |
| $X_{19}$ | Uczniowie na oddział w szkołach ogólnokształcących | osoby | destymulanta |
Analiza i przygotowanie danych¶
Dla analizowanych cech wyznaczono podstawowe statystyki opisowe, wykresy rozkładów, a także zbadano poziom ich skorelowanie. Następnie dokonano zastąpienia wartości odstających, normalizacji zmiennych oraz zamiany destymulant na stymulanty.
Statystyki zmiennych¶
| Zmienna | Średnia | Odch. std. | Minimum | 25% | 50% | 75% | Maksimum | Skośność | Kurtoza | CV |
|---|---|---|---|---|---|---|---|---|---|---|
| $X_{1}$ | 8.35 | 4.39 | 1.90 | 4.90 | 7.10 | 10.50 | 20.90 | 0.94 | 3.29 | 52.63 |
| $X_{2}$ | 1077.44 | 294.38 | 720.00 | 875.00 | 995.00 | 1212.00 | 2195.00 | 1.66 | 6.33 | 27.32 |
| $X_{3}$ | 39.25 | 9.11 | 17.60 | 32.70 | 39.70 | 46.30 | 56.60 | -0.30 | 2.51 | 23.20 |
| $X_{4}$ | 6310.84 | 585.52 | 5553.11 | 5935.46 | 6182.10 | 6505.42 | 9223.73 | 2.41 | 12.40 | 9.28 |
| $X_{5}$ | -1.36 | 2.94 | -5.83 | -3.31 | -1.84 | -0.88 | 11.43 | 2.19 | 9.38 | 215.37 |
| $X_{6}$ | 30.68 | 5.13 | 22.00 | 26.50 | 29.30 | 35.30 | 41.80 | 0.38 | 2.06 | 16.73 |
| $X_{7}$ | 63.18 | 16.66 | 28.60 | 53.30 | 61.40 | 73.90 | 96.50 | 0.02 | 2.46 | 26.37 |
| $X_{8}$ | 30.40 | 2.25 | 27.20 | 28.70 | 30.20 | 31.40 | 37.90 | 1.00 | 4.14 | 7.40 |
| $X_{9}$ | 3656.62 | 1586.45 | 1574.00 | 3022.00 | 3434.00 | 4030.00 | 14226.00 | 5.04 | 36.36 | 43.39 |
| $X_{10}$ | 33.58 | 27.30 | 10.70 | 18.70 | 25.50 | 34.50 | 131.70 | 2.56 | 9.23 | 81.29 |
| $X_{11}$ | 15.62 | 8.79 | 6.22 | 9.27 | 12.67 | 18.94 | 53.94 | 2.08 | 9.03 | 56.29 |
| $X_{12}$ | 677.64 | 82.18 | 532.00 | 618.10 | 669.10 | 715.60 | 948.80 | 1.07 | 4.77 | 12.13 |
| $X_{13}$ | 143.63 | 77.83 | 21.70 | 92.50 | 121.80 | 176.80 | 384.60 | 1.42 | 5.12 | 54.19 |
| $X_{14}$ | 55.84 | 25.75 | 5.70 | 37.60 | 51.30 | 69.80 | 133.90 | 0.98 | 3.98 | 46.10 |
| $X_{15}$ | 856.94 | 2157.39 | 0.00 | 16.72 | 91.26 | 513.48 | 13100.80 | 4.08 | 21.94 | 251.75 |
| $X_{16}$ | 0.63 | 1.95 | 0.02 | 0.05 | 0.09 | 0.21 | 13.47 | 5.42 | 36.00 | 307.82 |
| $X_{17}$ | 43.25 | 32.78 | 0.00 | 11.70 | 41.50 | 71.40 | 100.00 | 0.22 | 1.69 | 75.78 |
| $X_{18}$ | 89.96 | 7.91 | 70.50 | 86.00 | 88.40 | 91.90 | 113.00 | 1.15 | 4.92 | 8.79 |
| $X_{19}$ | 26.49 | 2.72 | 20.00 | 25.00 | 27.00 | 29.00 | 33.00 | -0.21 | 2.80 | 10.26 |
Rozkłady zmiennych¶
Rozkład stopy bezrobocia jest umiarkowanie prawoskośny, co sugeruje, że większość powiatów charakteryzuje się raczej niższą stopą bezrobocia, a wysokie wartości są rzadsze. Dość wysoka zmienność wskazuje na wyraźne zróżnicowanie sytuacji na rynku pracy w obrębie regionu południowo-wschodniej Polski.
Zmienna opisująca nowo zarejestrowane podmioty gospodarcze ma rozkład prawoskośny, co oznacza, że w większości powiatów poziom przedsiębiorczości jest znacząco umiarkowany, a tylko dla nielicznych obszarów występują wysokie wartości tego wskaźnika. Może to świadczyć o dużych różnicach i skoncetrowaniu rozwoju gospodarczego wyłącznie w kluczowych obszarach regionu.
Udział długotrwale bezrobotnych jest dość zbliżony dla większości powiatów, co sugeruje, że problem ten ma charakter dość równomierny. Brak większych odchyleń może wskazywać na utrwalony poziom bezrobocia strukturalnego w większości regionu.
Przęciętne wynagrodzenia są wysoce zbliżone między powiatami, jednak w kilku z nich notuje się wyraźnie wyższe płace. Sugeruje to stosunkowo jednolity poziom dochodów, z nielicznymi wyjątkami wynikającymi z obecności silniejszych ośrodków gospodarczych.
Wskaźnik migracji ma silnie prawoskośny rozkład i wysoką zmienność, co świadczy o dużych różnicach w atrakcyjności powiatów. W części z nich obserwuje się wyraźny odpływ ludności, podczas gdy inne przyciągają znaczące liczby nowych mieszkańców.
Wskaźnik ten jest stosunkowo wyrównany w skali całego regionu, co oznacza, że proces starzenia się ludności przebiega podobnie w większości powiatów. Różnice między nimi są umiarkowane i nie wskazują na występowanie skrajnych przypadków.
Dostęp do kanalizacji jest w regionie dość szeroki, choć wciąż można wskazać powiaty, w których infrastruktura ta rozwinięta jest znacząco słabiej. Dodatkowo dla głównych obszarów miejskich wskaźnik przyjmuje wyższe wartości.
Rozkład cechy opisującej powierzchnię użytkową na osobę jest prawoskośny, a niska zmienność sugeruje zbliżony poziom warunków mieszkaniowych w większości analizowanych powiatów. Natomiast istnieją obszary regionu, dla których wskaźnik przyjmuje znacznie większe wartości.
Dostępność aptek dla mieszkańców większości powiatów jest zbliżona. W niektórych dostęp do usług farmaceutycznych jest bardzo ograniczony, a także należy zauważyć obszar, dla którego wskaźnik osiągą kilkukrotnie wyższą wartość niż przeciętna. Może to świadczyć o nierównym dostępie do usług zdrowotnych w regionie.
Podobnie jak z dostępnością do aptek, rozkład jest wyraźnie prawoskośny, co oznacza, że w większości powiatów liczba lekarzy jest raczej niska, a tylko kilka jednostek osiąga znacznie wyższe wartości. Duża zmienność potwierdza różnice w dostępności usług medycznych w regionie południowo-wschodniej Polski.
Rozkład umiarkowanie prawoskośny i o wysokiej kurtozie sugerują, że w większości powiatów poziom przestępczości jest niski, lecz pojedyncze obszary notują znacząco wyższe wartości tego wskaźniki.
Rozkład jest lekko prawoskośny, co wskazuje, że większość powiatów ma umiarkowany poziom motoryzacji, a tylko nieliczne wyróżniają się dużą liczbą pojazdów. Niewielka zmienność sugeruje stosunkowo podobny poziom wskaźnika w całym regionie.
Znaczna prawoskośność i spora zmienność mogą świadczyć o dużych różnicach w gęstości infrastruktury drogowej między powiatami. Część jednostek dysponuje rozbudowaną siecią dróg, podczas gdy inne pozostają słabiej rozwinięte pod tym względem.
Rozkład cechy jest prawoskośny, co oznacza, że większość powiatów cechuje się relatywnie niskim poziomem wskaźnika, a do więkoszości wypadków drogowych dochodzi w nielicznych obszarach regionu.
Rozkład bardzo silnie prawoskośny, o wysokiej kurtozie i współczynniku zmienności wskazuje na występowanie kilku powiatów o wyjątkowo wysokim poziomie emisji gazów, stanowiących prawdopodobnie główne obszary przemysłowe regionu południowo-wschodniej Polski. W większości jednostek zanieczyszczenie powietrza pozostaje na stosunkowo niskim poziomie.
Prawoskośność cechy i bardzo wysoka zmienność sugerują, że tylko nieliczne powiaty mają znaczące powierzchnie terenów zielonych. W pozostałych udział takich obszarów jest minimalny.
Rozkład jest umiarkowanie prawoskośny, co oznacza, że większość powiatów ma przeciętny udział terenów chronionych, a tylko niektóre wyróżniają się ich dużym udziałem.
Rozkład prawoskośny o umiarkowanej zmienności świadczy o dość wysokim i zbliżonym poziomie skolaryzacji w regionie. Różnice między powiatami nie są duże, co może sugerować podobny dostęp do edukacji. Należy zauważyć pojedyncze ośrodki, dla których wskaźnik ten jest znacznie wyższy.
Rozkład jest niemal symetryczny, a zmienność niewielka, co oznacza, że liczebność klas jest podobna w większości powiatów. Może to wskazywać na względnie wyrównane możliwości dostępu do edukacji w regionie.
Macierz korelacji¶
Zaobserwowano wyższy poziom korelacji między liczbą nowo zarejestrowanych podmiotów gospodarczych a przeciętnym wynagrodzeniem brutto oraz dostępnością do kadry medycznej. Może to wynikać z faktu, że regiony o większej aktywności gospodarczej generują wyższe dochody, co przyciąga specjalistów, w tym pracowników sektora medycznego, oraz umożliwia lepsze finansowanie lokalnej opieki zdrowotnej. Jednocześnie obszary o dynamicznie rozwijającej się gospodarce częściej pełnią funkcję centrów administracyjnych i usługowych, co sprzyja rozwojowi infrastruktury medycznej i wyższym wynagrodzeniom.
Również między liczbą lekarzy przypadających na mieszkańca a udziałem terenów zielonych i poziomem skolaryzacji. Należy przypuszczać, że powiaty o dobrze rozwiniętej infrastrukturze społecznej i edukacyjnej nie tylko przyciągają wykwalifikowaną kadrę medyczną, ale również dbają o jakość środowiska miejskiego. Obecność terenów zielonych może odzwierciedlać dbałość o jakość życia mieszkańców, co z kolei sprzyja koncentracji instytucji edukacyjnych i medycznych w tych samych obszarach.
Dodatkowo wykazano korelację między poziomem skolaryzacji a stopniem rozwoju infrastruktury. Może to sugerować, że obszary o dobrze rozwiniętej infrastrukturze – takie jak większe miasta – są naturalnymi ośrodkami edukacji i nauki. Wysoka jakość infrastruktury sprzyja koncentracji szkół wyższych, instytucji badawczych i ośrodków naukowych.
Przygotowanie zmiennych¶
Większość z analizowanych cech charakteryzuje się silną prawostronną asymetrią. W celu osłabienia wpływu zdecydowano się na ograniczenie wartości zmiennych do wartości górnego lub dolnego wasą, tj. $Q_1 - 1.5 \cdot (Q_3 - Q_1)$ oraz $Q_3 + 1.5 \cdot (Q_3 - Q_1)$. W przypadku porządkowania liniowego oraz analizy skupień wartości odstające mogą znacząco wpłynąć na miary odległości i relacje między obiektami. Dodatkowo uzsadnione jest stwierdzenie, że pojedyncza element nie może w nieograniczonym stopniu wpływać na analizowane warunki życia.
Dla zapewnienia porównywalności oraz zrównoważenia wpływu poszczególnych cech wszystkie zmienne diagnostyczne zostały przekształcone do wspólnej skali. W tym celu dokonano standaryzacji (normalizacji standardowej), zgodnie ze wzorem: $$ z_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j} $$ gdzie:
- $z_{ij}$ - standaryzowana wartość j-tej zmiennej dla i-tego obiektu,
- $x_j$ - początkowa wartość j-tej zmiennej dla i-tego obiektu,
- $\bar{x}_j$ - średnia dla j-tej zmiennej,
- $s_j$ - odchylenie standardowe dla j-tej zmiennej.
W porządkowaniu liniowym, dla technik bezwzorcowych wszystkie cechy należy zamienić na stymulanty. Podejście to również ma uzasadnienie dla technik wzorcowych. Dokonuje się tego zamieniając wartość destymulanty na $X_i^{\prime} = -X_i$.
Żadna z analizowanych cech nie wykazuje bardzo silnej korelacji. W przypadku trzech zmiennych — przeciętnego wynagrodzenia, powierzchni użytkowej mieszkania oraz poziomu skolaryzacji — współczynnik zmienności wyniósł nieco poniżej 10%. Ze względu na prawdopodobną istotność tych cech dla porządkowania liniowego i analizy skupień zdecydowano jednak o ich zachowaniu. Ponadto rezygnacja z tych zmiennych nie byłaby wskazana, ponieważ umożliwia porównanie ocen warunków życia powiatów południowo-wschodniej Polski z wcześniejszym opracowaniem z 2019 r., w którym zastosowano te same zmienne.
Porządkowanie liniowe¶
Zastosowane metody¶
Jako bezwzorcową technikę porządkowania liniowego wykorzystano metodę standaryzowanych sum. Po zamianie zmiennych na stymulanty i standaryzacji należy zsumować oszacowanie uzyskane
ramach obiektu tj. $s_i = \frac{1}{m} \sum_{j=1}^{m} z_{ij}$. Dla uzyskanego wskaźnika można dokonać normalizacji.
Jako wzorcową technikę porządkowania liniowego wykorzystano metodę Hellwiga. Po zamianie zmiennych na stymulanty i standaryzacji należy wyznaczyć wzorzec zgodnie ze wzorem: $z_{0j} = \max\limits_{i=1,\dots,n} z_{ij}$. Następnie wyznaczyć odległości wszystkich obiektów od wzorca (np. z wykorzystaniem metryki euklidesowej) tj. $d_i = \sqrt{\sum_{j=1}^{m} (z_{ij} - z_{0j})^2}$. W kolejnym etapie należy utworzyć synetyczny miernik, wskaźnik Hellwiga jako $s_i = 1 - \frac{d_i}{d_0}$, gdzie $d_0 = \bar{d} + 2 \cdot s_d$ (odłegłość możliwie daleka).
Dla interpetacji wyników zastosowano grupowanie według średniej:
- grupa I (najwyższy poziom): $r \geq \bar{x} + s_x$
- grupa II (poziom ponadprzeciętny): $\bar{x} \leq r < \bar{x} + s_x$
- grupa III (poziom poniżej przeciętnej): $\bar{x} - s_x \leq r < \bar{x}$
- grupa IV (poziom najniższy): $r < \bar{x} - s_x$
Otrzymane rankingi¶
| Hellwig | Standaryzowane sumy | |||||
|---|---|---|---|---|---|---|
| Powiat | $s_i$ | Gr. | Poz. | $s_i$ | Gr. | Poz. |
| m. Kraków | 0.379 | I | 1 | 1.000 | I | 1 |
| krakowski | 0.318 | I | 2 | 0.740 | I | 4 |
| wielicki | 0.315 | I | 3 | 0.780 | I | 3 |
| buski | 0.300 | I | 4 | 0.656 | I | 8 |
| suski | 0.295 | I | 5 | 0.660 | I | 7 |
| m. Rzeszów | 0.285 | I | 6 | 0.887 | I | 2 |
| proszowicki | 0.273 | I | 7 | 0.624 | II | 12 |
| oświęcimski | 0.260 | I | 8 | 0.527 | II | 19 |
| bocheński | 0.251 | II | 9 | 0.559 | II | 15 |
| m. Kielce | 0.249 | II | 10 | 0.728 | I | 5 |
| staszowski | 0.247 | II | 11 | 0.483 | II | 22 |
| miechowski | 0.245 | II | 12 | 0.557 | II | 16 |
| wadowicki | 0.240 | II | 13 | 0.502 | II | 21 |
| chrzanowski | 0.234 | II | 14 | 0.507 | II | 20 |
| myślenicki | 0.219 | II | 15 | 0.602 | II | 13 |
| m. Nowy Sącz | 0.217 | II | 16 | 0.641 | I | 11 |
| m. Tarnobrzeg | 0.211 | II | 17 | 0.554 | II | 17 |
| m. Krosno | 0.210 | II | 18 | 0.684 | I | 6 |
| sandomierski | 0.204 | II | 19 | 0.434 | III | 31 |
| tatrzański | 0.203 | II | 20 | 0.602 | II | 14 |
| brzeski | 0.201 | II | 21 | 0.454 | II | 25 |
| mielecki | 0.196 | II | 22 | 0.439 | III | 29 |
| nowotarski | 0.194 | II | 23 | 0.532 | II | 18 |
| m. Przemyśl | 0.193 | II | 24 | 0.644 | I | 9 |
| m. Tarnów | 0.187 | II | 25 | 0.644 | I | 10 |
| łańcucki | 0.187 | II | 26 | 0.464 | II | 23 |
| stalowowolski | 0.181 | II | 27 | 0.436 | III | 30 |
| olkuski | 0.177 | II | 28 | 0.382 | III | 41 |
| starachowicki | 0.175 | II | 29 | 0.395 | III | 38 |
| konecki | 0.173 | II | 30 | 0.387 | III | 39 |
| Hellwig | Standaryzowane sumy | |||||
|---|---|---|---|---|---|---|
| Powiat | $s_i$ | Gr. | Poz. | $s_i$ | Gr. | Poz. |
| kielecki | 0.172 | II | 31 | 0.462 | II | 24 |
| dębicki | 0.170 | II | 32 | 0.406 | III | 34 |
| włoszczowski | 0.165 | III | 33 | 0.379 | III | 42 |
| limanowski | 0.158 | III | 34 | 0.444 | III | 28 |
| gorlicki | 0.156 | III | 35 | 0.396 | III | 37 |
| krośnieński | 0.154 | III | 36 | 0.430 | III | 32 |
| ostrowiecki | 0.152 | III | 37 | 0.367 | III | 45 |
| przeworski | 0.151 | III | 38 | 0.401 | III | 36 |
| leski | 0.144 | III | 39 | 0.446 | III | 26 |
| jarosławski | 0.143 | III | 40 | 0.372 | III | 44 |
| sanocki | 0.138 | III | 41 | 0.352 | III | 47 |
| tarnowski | 0.135 | III | 42 | 0.405 | III | 35 |
| skarżyski | 0.135 | III | 43 | 0.349 | III | 48 |
| pińczowski | 0.130 | III | 44 | 0.378 | III | 43 |
| jasielski | 0.125 | III | 45 | 0.305 | III | 49 |
| kazimierski | 0.121 | III | 46 | 0.382 | III | 40 |
| rzeszowski | 0.112 | III | 47 | 0.445 | III | 27 |
| lubaczowski | 0.110 | III | 48 | 0.356 | III | 46 |
| bieszczadzki | 0.109 | III | 49 | 0.415 | III | 33 |
| dąbrowski | 0.108 | III | 50 | 0.272 | III | 51 |
| jędrzejowski | 0.103 | III | 51 | 0.241 | IV | 55 |
| ropczycko-sędziszowski | 0.098 | III | 52 | 0.291 | III | 50 |
| niżański | 0.064 | IV | 53 | 0.249 | IV | 53 |
| nowosądecki | 0.053 | IV | 54 | 0.264 | IV | 52 |
| tarnobrzeski | 0.045 | IV | 55 | 0.194 | IV | 57 |
| leżajski | 0.042 | IV | 56 | 0.188 | IV | 58 |
| strzyżowski | 0.024 | IV | 57 | 0.176 | IV | 59 |
| kolbuszowski | 0.024 | IV | 58 | 0.201 | IV | 56 |
| przemyski | 0.011 | IV | 59 | 0.243 | IV | 54 |
| brzozowski | -0.007 | IV | 60 | 0.142 | IV | 60 |
| opatowski | -0.028 | IV | 61 | 0.000 | IV | 61 |
Mapy podziałów na grupy¶
Wnioski¶
Zastosowane metody porządkowania liniowego – Hellwiga oraz standaryzowanych sum – dały zbliżone wyniki w klasyfikacji powiatów. Obie metody są zgodne co do lidera rankingu, jednoznacznie wskazując m. Kraków na pierwszej pozycji w najwyższej klasie (grupa I). Największe rozbieżności widoczne są w klasyfikacji innych dużych miast: metoda standaryzowanych sum przyporządkowała m. Kielce, m. Tarnów, m. Nowy Sącz oraz m. Przemyśl do grupy I, podczas gdy w metodzie Hellwiga znalazły się one w niższej w grupie II. Występują również znaczące różnice w środkowych grupach; przykładowo powiaty sandomierski i olkuski zostały znacznie wyżej ocenione przez metodę Hellwiga (grupa II) niż przez metodę sum (grupa III).
Metody Hellwiga i standaryzowanych sum wykazują bardzo wysoką zgodność porządkowania obiektów, co potwierdzają współczynniki korelacji Tau-Kendalla (0,83) i Spearmana (0,92). Obie korelacje są statystycznie istotne (p < 0,001), co oznacza, że uzyskane wyniki pokrywają się w znacznym stopniu. Można zatem uznać, że wybór jednej z metod nie wpływa znacząco na końcowe wnioski rankingowe.
Analiza skupień¶
Zastosowane metody¶
Jako technikę grupowania podziałowego wykorzystano metodę k-średnich, która działa iteracyjnie i polega na podziale zbioru danych na k klastrów w taki sposób, aby obiekty w tym samym klastrze były jak najbardziej podobne, a różne klastry jak najbardziej od siebie odseparowane. Losowo wybiera się k centroidów, następnie przypisuje obiekty do najbliższego centroidu, aktualizuje je na podstawie średnich przypisanych punktów i powtarza te kroki aż do osiągnięcia zbieżności. Do doboru wartości parametru k wykorzystano metodę elbow (łokciową), którą dąży do zminimalizowania zmienności wewnątrz wszystkich klastrów.
Jako technikę grupowania hierarchicznego wykorzystano metodę Warda, która działa iteracyjnie i polega na łączeniu obserwacji w klastry w taki sposób, aby minimalizować wzrost wariancji wewnątrzklastrowej. Liczbę klastrów określono na podstawie wskaźnika Calińskiego–Harabasza, który ocenia jakość podziału poprzez porównanie wariancji międzyklastrowej do wariancji wewnątrzklastrowej. Wyższe wartości wskaźnika wskazują na lepsze rozdzielenie i większą spójność klastrów.
Metoda k-średnich¶
Wybór wartości parametru k¶
Jako optymalną wartość paramateru, tzn. wartość, dla której dalsze zwiększanie liczby klastrów nie przynosi znaczącego spadku WCSS (tzw. łokieć), przyjęto cztery.
Mapa klastrów¶
Statystyki dla klastrów¶
| Klaster 1 | Klaster 2 | Klaster 3 | Klaster 4 | |||||
|---|---|---|---|---|---|---|---|---|
| Zmienna | Średnia | Odch. std. | Średnia | Odch. std. | Średnia | Odch. std. | Średnia | Odch. std. |
| $X_{1}$ | 9.49 | 4.21 | 4.93 | 2.35 | 11.83 | 3.90 | 5.62 | 1.97 |
| $X_{2}$ | 1082.15 | 253.32 | 1393.50 | 240.76 | 850.76 | 87.62 | 1069.65 | 164.25 |
| $X_{3}$ | 43.29 | 8.54 | 36.82 | 8.83 | 42.61 | 7.24 | 33.29 | 8.44 |
| $X_{4}$ | 6383.31 | 312.83 | 6746.14 | 516.43 | 5986.55 | 296.75 | 6175.90 | 424.86 |
| $X_{5}$ | -2.59 | 1.05 | -2.00 | 2.84 | -2.58 | 1.04 | 0.41 | 1.68 |
| $X_{6}$ | 34.86 | 3.36 | 34.97 | 4.00 | 29.04 | 3.74 | 25.61 | 2.04 |
| $X_{7}$ | 50.54 | 14.03 | 86.23 | 10.37 | 66.44 | 11.09 | 58.99 | 11.36 |
| $X_{8}$ | 31.78 | 1.97 | 30.55 | 1.84 | 28.70 | 0.98 | 30.47 | 2.18 |
| $X_{9}$ | 3238.12 | 601.94 | 2494.80 | 509.01 | 3857.88 | 712.71 | 4045.41 | 651.59 |
| $X_{10}$ | 28.64 | 9.75 | 51.39 | 11.07 | 22.69 | 7.59 | 21.51 | 5.67 |
| $X_{11}$ | 15.46 | 5.60 | 24.74 | 6.66 | 10.95 | 4.92 | 13.28 | 5.23 |
| $X_{12}$ | 740.44 | 73.85 | 678.04 | 76.52 | 639.99 | 56.69 | 643.69 | 49.04 |
| $X_{13}$ | 116.81 | 54.02 | 255.15 | 54.20 | 93.64 | 29.76 | 142.62 | 32.18 |
| $X_{14}$ | 58.06 | 20.63 | 71.75 | 31.05 | 44.27 | 19.51 | 54.56 | 25.36 |
| $X_{15}$ | 292.21 | 417.26 | 1185.11 | 232.46 | 79.57 | 99.87 | 126.76 | 222.72 |
| $X_{16}$ | 0.08 | 0.06 | 0.46 | 0.00 | 0.09 | 0.07 | 0.12 | 0.09 |
| $X_{17}$ | 61.77 | 34.14 | 11.90 | 19.53 | 40.46 | 25.01 | 45.96 | 32.06 |
| $X_{18}$ | 87.71 | 2.63 | 99.06 | 3.35 | 85.45 | 3.90 | 88.68 | 3.76 |
| $X_{19}$ | 25.88 | 2.89 | 28.30 | 2.54 | 25.41 | 2.53 | 27.12 | 2.29 |
Metoda Warda¶
Wybór punktu odcięcia¶
Pomimo że najwyższą wartość wskaźnika Calińskiego–Harabasza uzyskano dla podziału na dwa klastry, zdecydowano się na wybór trzech klastrów, aby lepiej uchwycić zróżnicowanie pomiędzy licznymi powiatami i uniknąć nadmiernego uproszczenia.
Mapa klastrów¶
Statystyki dla klastrów¶
| Klaster 1 | Klaster 2 | Klaster 3 | ||||
|---|---|---|---|---|---|---|
| Zmienna | Średnia | Odch. std. | Średnia | Odch. std. | Średnia | Odch. std. |
| $X_{1}$ | 4.93 | 2.35 | 9.30 | 4.11 | 8.79 | 4.46 |
| $X_{2}$ | 1393.50 | 240.76 | 1077.45 | 239.68 | 955.38 | 174.62 |
| $X_{3}$ | 36.82 | 8.83 | 41.76 | 9.27 | 38.53 | 9.04 |
| $X_{4}$ | 6746.14 | 516.43 | 6389.55 | 308.28 | 6058.64 | 367.46 |
| $X_{5}$ | -2.00 | 2.84 | -2.71 | 1.06 | -0.92 | 2.00 |
| $X_{6}$ | 34.97 | 4.00 | 35.13 | 3.44 | 26.69 | 2.24 |
| $X_{7}$ | 86.23 | 10.37 | 52.72 | 14.75 | 62.18 | 11.84 |
| $X_{8}$ | 30.55 | 1.84 | 31.50 | 2.04 | 29.61 | 1.95 |
| $X_{9}$ | 2494.80 | 509.01 | 3255.95 | 588.63 | 3985.66 | 676.85 |
| $X_{10}$ | 51.39 | 11.07 | 29.15 | 9.40 | 21.39 | 6.08 |
| $X_{11}$ | 24.74 | 6.66 | 15.19 | 5.37 | 12.06 | 5.28 |
| $X_{12}$ | 678.04 | 76.52 | 724.47 | 84.61 | 645.17 | 51.94 |
| $X_{13}$ | 255.15 | 54.20 | 114.85 | 52.19 | 119.37 | 39.58 |
| $X_{14}$ | 71.75 | 31.05 | 57.05 | 20.96 | 49.48 | 22.96 |
| $X_{15}$ | 1185.11 | 232.46 | 288.48 | 394.49 | 93.56 | 171.22 |
| $X_{16}$ | 0.46 | 0.00 | 0.10 | 0.07 | 0.09 | 0.07 |
| $X_{17}$ | 11.90 | 19.53 | 59.75 | 34.33 | 43.25 | 28.29 |
| $X_{18}$ | 99.06 | 3.35 | 87.55 | 2.60 | 87.12 | 4.21 |
| $X_{19}$ | 28.30 | 2.54 | 25.95 | 2.74 | 26.25 | 2.60 |
Wnioski¶
Porównanie mapy Warda ($k=3$) z mapą k-średnich ($k=4$) pokazuje, że podział na 4 klastry jest w dużej mierze rozwinięciem podziału na 3 klastry – jeden z klastrów metody Warda (klaster 3, obejmujący północny zachód i południowy wschód) został w metodzie k-średnich rozbity na dwie odrębne grupy (klaster 1 i klaster 4). Występuje silna autokorelacja przestrzenna: powiaty grupują się w spójne geograficznie regiony, co potwierdza zasadność podziału. Obie analizy potwierdziły istnienie bardzo stabilnego klastra "zurbanizowanego", skupionego wokół głównych miast (powiaty grockie), który wyróżnia się najwyższymi średnimi wartościami dla większości wskaźników (m.in. $X_2$, $X_{10}$, $X_{13}$). Przeciwieństwie do otrzymanego klastra "peryferyjnego" (klaster 3 w metodach Warda oraz k-średnich), dla którego powiaty charakteryzują się najniższymi wartościami tych wskaźników, ale jednocześnie mają wspólną cechę w postaci bardzo wysokiej średniej dla zmiennej $X_9$, która mówi o liczbie osób przypadających na aptekę.
Podsumowanie¶
Powyższa analiza oraz wcześniejsze badania dr. Wolaka opierają się na identycznym zbiorze 19 wskaźników dla powiatów Polski południowo-wschodniej. Zasadnicza różnica w podejściach metodologicznych polega na różnicach w rozwinięciu analizy: w opracowaniu dr. Wolak poszerzono ją o metody porządkowania uwzględniające sąsiedztwo (algorytmy Pietrzaka i Sobolewskiego), podczas gdy w tym badaniu wykorzystano ranking Hellwiga i metodę standaryzowanych sum, a także analizę skupień (metody Warda i k-średnich). Pomimo zbliżonych, ale różnych podejść, wyniki obu analiz są wysoce zbieżne i wzajemnie się potwierdzają, co fundamentalnie wzmacnia ich wiarygodność. Zidentyfikowany klaster "zurbanizowany" dokładnie pokrywa się z jednostkami zajmującymi najwyższe pozycje w rankingu dr. Wolaka, zlokalizowanymi w centralnej i zachodniej Małopolsce. Analogicznie, wyznaczone klastry "peryferyjne" odpowiadają obszarom o najniższym wskaźniku syntetycznym w tamtym badaniu, czyli wschodniej części regionu. Obie metody analizy skupień analizy dowiodły również istnienia silnej autokorelacji przestrzennej warunków życia. Oznacza to, że kondycja powiatu jest silnie powiązana z jego sąsiadami, co prowadzi do tworzenia się wyraźnych geograficznych mikroregionów dobrobytu i stagnacji. Zaletą zastosowanego podejścia klasyfikacyjnego jest możliwość głębszej charakterystyki zidentyfikowanych grup (poprzez wyznaczenie statystyk dla każdego z klastrów). Pozwoliło to na wskazanie specyficznych, wspólnych problemów, jak np. krytycznie niska dostępność do aptek (zmienna $X_9$) w klastrach "peryferyjnych" i wysoka średnia wynagrodzeń ($X_2$) w klastrach "zurbanizowanych".